﻿ Tehnicide IngineriaLimbajuluiNatural Curs 2 Proiecte Curs: Dan Cristea Laboratoare: Diana Trandabăț, Mihaela Onofrei, Daniela Gîfu, IonuțPistol OIECT 1 Name entity recogniser (NER)PR •NER: un modulcapabilsăclasificemențiunilede entitățicu nume •Utilizare: –input: text –output: entitățilemarcateXML •Exemple George Ionescu AlexandruIoanCuza din Iași OIECT 1 Name entity recogniser (NER)PR •Tehnologii și resurse –Expresii regulate: Graphical Grammar Studio (GGS) –Gazeteers (liste de nume publice) •Geonames(Pentru România, Geonames include peste 25 000 de entităţi unice, cu peste 45 000 de denumiri alternative) •Referințe: –Download GGS:https://sourceforge net/projects/ggs/ –Gazetteer: https://drive google com/open?id=1oTBmSX 93cnVIwqxJcAoqQU7W4qDBFEV –convenții XML de adnotare a entităților cu nume: https://drive google com/drive/folders/1S4Mfj- 4hfCXavAEkY8VQGvBjNxlcdOTF –D Cristea, D Gîfu, I Pistol, D Sfirnaciuc, M Niculiță (2016) A Mixed Approach in Recognising Geographical Entities in Texts in D Trandabăț and D Gîfu (eds ): Proceedings of the Workshop on Social Media and the Web of Linked Data, RUMOUR-2015, A satellite event of EUROLAN-2015, Sibiu, Romania, July 2015, Springer International Publishing, https://profs info uaic ro/~dcristea/papers/RUMOUR-Cristea%20et%20al pdfPROIECT 2Route tracer following text descriptions •Un modulcapabilsădesenezetraseeplecândde la descrierilelorîntext •Utilizare: –input: text adnotatXML cu numede entitățigeografice oride instituții –output: o hartăcu trasee(Google Maps) •Exemplu “Bisericadin cărămidăde la sfârșitulsecoluluiXV-lea, de lângăPalatulCulturii, esteBisericaSf Nicolae… O plimbarede 5 minute sprenord, pe BulevardulȘtefancelMare, teducela BisericaTrei Ierarhi(str ȘtefancelMare șiSfântnr 28) BisericaArmeneascăde la începutulsecoluluiXIX-lea se aflăpe Strada Armenească, o plimbarede 8 minute la nord-estde PiațaPalatului, pe Strada CostacheNegri… Mergipuținmaidepartesprenord, pânăpe Strada CuzaVodănr 51, undese înalță MănăstireaGolia ” PROIECT 2Route tracer following text descriptions ICT 2Route tracer following text OE descriptionsPR •Tehnologia –Extrageți descrieri din cărți, Wikipedia, ghiduri de călătorie etc –Notați în XML pe ele, în convențiile de la Proiectul NER, entități de interes turistic –Folosiți Google Maps sau o altă aplicație web capabilă să deseneze trasee –Un bonus dacă descrierile rezultate sunt în termeni de relații spațiale •Referințe –Pentru convenții XML de adnotare a relațiilor spațiale: raport MappingBooks 2015, la: https://drive google com/drive/folders/1S4Mfj- 4hfCXavAEkY8VQGvBjNxlcdOTF OIECT 3 Recognising time in textsPR •Un modulcapabilsăadnotezeXML, înmaniera TimeML, expresiiletemporalegăsiteîntr-un text •Utilizare: –input: text, eventual adnotatTOK, POS –output: expresiitemporalemarcateTIMEX3 •4 tipuride expresiitemporaleTIMEX3: (a) specificatecomplet(DATE): 11 iunie, 1989, varaanului2002; (b) nespecificate, relative la momentulcurent(TIME): luni, luna viitoare, anultrecut, acumdouăzile; (c) durate(DURATION): 3 luni, doiani, o săptămână; (d) cu repetare(REPEAT): înfiecaremiercuri, anual OIECT 3 Recognising time in textsPR •Exemple 25 02 2020 mâine acum două zile secolul al XIX- lea deceniul ’90 al secolului trecut la anul în data de 20 a lunii în primul weekend al fiecărei luni o lună OIECT 3 Recognising time in textsPR •Referințe –James Pustejovsky et al (2003) TimeML: Robust Specification of Event and Temporal Expressions in Text, AAAI Technical Report SS-03-07, https://www aaai org/Papers/Symposia/Spring/2003/S S-03-07/SS03-07-005 pdf –SutimePython: https://github com/FraBle/python- sutime OIECT 4 Temporal alignerPR •Un modulcapabilsădetermine relațiitemporale întremențiunide evenimenteșide expresii temporale •Utilizare: –input: text adnotatTOK, POS, TIMEX3 –output: marcajeEVENT, SIGNAL șiTLINK OIECT 4 Temporal alignerPR •Exemplu: La un an după ce s-a înființat Institutul, acesta avea deja 20 de cercetători OIECT 4 Temporal alignerPR •Referințe –Verhagen& Pustejovsky: Temporal Processing with the TARSQI Toolkit, Coling2008, https://www aclweb org/anthology/C08-3012 pdf –Marc Verhagen, Robert Knippen, InderjeetMani, James Pustejovsky: Annotation of Temporal Relations with Tango –https://github com/tarsqi/ttkPROIECT 5Automatic writing of the history of a place •Un modulcapabilsăsintetizezeo istorie, derularea unorevenimentelegate întreele, un timeline, corelândmențiunide evenimente, de persoane implicate înaceleevenimenteșide momenteori intervalede timpîncare au eleloc, găsiteînmai multedocumente •Utilizare: –input: o colecțiede texteadnotatela TOK, POS, EVENT pe verbe, TIMEX3, TLINK –output: EVENT cu rolurișiapoitextPROIECT 5Automatic writing of the development of a story •Exemplu: evoluția epidemiei de Coronavirus (SARS-CoV-2) –Luați primele 10 articole din Google găsite cu secvența de căutare “epidemia de coronavirus în Italia” •Deșteptarea, 24 februarie: “Sunt peste 200 de persoane infectate cu coronavirus în Italia, iar patru au murit Italia este în acest moment cel mai mare focar de coronavirus din Europa Autoritățile italiene au decis ca 11 orașe să intre în carantină, multe școli au fost închise, iar carnavalul de la Veneția s-a încheiat mai devreme ” •Radio Europa Liberă Moldova, 25 februarie: “În Italia au fost înregistrate 219 infectări, iar cinci oameni au murit…” –Modificați manual exprimările pentru a le aduce la o formă mai simplă: “200 de persoane au fost infectate cu coronavirus în Italia”PROIECT 5Automatic writing of the development of a story •“200 de persoaneau fostinfectatecu coronavirus înItalia” –Extrageți: •Grupurinominale: 200 de persoane –extragețievenimentele: PROIECT 6I listen my speaking agent reading fragments as I walk by •Avețio colecțiede textecare abundăînentități geografice, marcateXML explicit, textelefiind însoțitede metadatecare descriu: autorulșititlul cărții, anulde aparițieșieditura Aplicațiava semnalaproximitateatelefonuluifațăde locațiile menționateîntexteșivăvacitiacelefragmente care includmențiunilorrespective Înfelulacesta, o plimbareprintr-un mare orașse poatetransforma într-o călătorieliterară •PROIECT 6I listen my speaking agent reading fragments as I walk by •Referințe: –rapoartele proiectului ReTeRom (v laborator) –lucrări MappingBooks (a se consulta Cristea et al , în https://profs info uaic ro/~dcristea/publications html) OIECT 7 Cultural routes creatorPR